查看原文
其他

国务院政府工作报告(1954—2017)文本挖掘及社会变迁研究

魏伟郭崇慧陈静锋 大邓和他的Python 2022-07-09

魏伟, 郭崇慧, 陈静锋. 国务院政府工作报告 (1954—2017) 文本挖掘及社会变迁研究[J]. 情报学报, 2018, 37(4): 406-421.

计算社会经济学
文本大数据分析在经济学和金融学中的应用:一个文献综述
【视频课】Python爬虫与文本数据分析
2019·国庆·杭州 | Python爬虫与文本分析工作坊

每个人(公司、政府)都会有自己表达方式,比如口头禅为例,小的时候经常"卧槽",稍微文明点"我去",比较在意言语文明后OMG"。

对于每个实体(个人、公司、政府)措辞,从时间上看既有前后连续表现出的共性,也有从时间上看表现出的变迁。已有的研究中虽部分使用了自然语言处理及文 本分析方法, 但在其做后续分析时存在研究的不深入、方法较单一以及内容分析上的单方面性和主观性等一些不足之处。如根据人的经验知识选择特定的能够有较合理解释的词,进行相关方面的分析;或是有针对性地抽取出国务院政府工作报告中特定 单方面的内容进行定性分析, 这些做法都不能客观地反映出国务院政府工作报告中真实的内容。已有的研究缺少对国务院政府工作报告的综合性研究, 并且仍然存在许多复杂的问题未进行研究, 在以下方面的研究上存在有待深入探讨的问题:如何用文本挖掘方法:

  • 如何有效地挖掘出历年国务院政府工作报 告探讨的共性问题;

  • 如何有效地挖掘出历年国务院政府工作报 告关注的热点问题及其发展变化规律;

  • 如何从历年国务院政府工作报告中度量历 年的社会活力变化;

  • 历年国务院政府工作报告中词语的使用是否存在共同的模式;


我觉得这篇文章的挖掘文本信息的算法挺实用的,虽然目前在谷歌学术引用量为0,但想象空间很大。😁比如上面的四个问题,对应到会计学研究中(我不懂会计论文,只是想到有类似的数据-上市公司年报),可以仿照着提出四个问题:


  • 如何有效地挖掘出历年XXX公司年报探讨的共性问题;

  • 如何有效地挖掘出历年XXX公司年报关注的热点问题及其发展变化规律;

  • 如何有效地挖掘出历年XXX公司年报中度量历年的公司创新(活力)能力变化;

  • 如何有效地挖掘出历年XXX公司年报中词语的使用是否存在共同的模式;


当然我的意思不是仿照着做,最关键的是里面的算法为从文本数据中提取相关变量信息的提供了算法。我做的PPT比较简单,隐藏了大量的技术细节(额,细节很难)






单独抽取出相邻时间年份所关注热点问题的相 似性情况进行分析, 如图 4 所示。整体相似性呈现 逐步上升趋势, 说明每年所关注的热点问题具有一 定的延续性, 并且这种延续性有逐步增强的趋势。前半段因为社会发展不稳定、持续性改革等原因致使曲线波动性较大, 随着国家发展逐步稳定, 曲线 的波动趋于平缓, 相邻年份之间所关注的热点问题更加相似。


判定社会活力可以通过一个社会的行 为或活动进行, 人作为社会生产生活的主体, 从本质上而言, 人的积极性、创造性是社会活力的表征 。而人的积极性与创造性反映在国务院工作 报告中可以是语言新词的更新程度。所以本研究从社会宏观背景和国家政策语境出发, 尝试性地讨论了社会活力的定量计算方法。

从 1954 年到 2017 年, 整体社会活力呈现与时增加 的趋势,尤其自 2014 年以来,受国家改革发展进入 活跃期的影响, 社会活力处于全时段最高阶段。 社会活力值的大小, 受当年社会发生的一系列变革的 密切影响。如 2013 年之前的时间阶段内,2004 年的 社会活力值最高,因为受当年中央一号文件 “农民增 收 ”出台以及 “三农 ”相关政策、重大传染病艾滋病、 亚洲禽流感、抗击非典的胜利、台湾 “大选 ”和大陆针对台湾的 5·17 声明、香港七一大游行和立法会议员 选举、裁军和军队建设、法制建设以及维护社会稳 定等突出问题的影响,致使 2004 年的社会活力指数较高。

从图 6 中可以看出, 差异值较大的时间节点都 对应了相应的重要历史事件或者政策改革, 并且从 整体来看, 差异值整体上呈递减趋势, 这与国家整 体发展的日渐稳定密切相关。



本文以每个词在所有年份的报告中出现的总词 频数作为特征选择的指标, 筛选出语料库中排名靠 前的 1000 个特征词并用其对所有报告进行表示,然 后计算每个特征词在每篇文档中的 tf-idf 值作为特征 词在文档中的重要性权重。如此, 每个特征词可以 用一个 49 维的时间序列进行表示。然后对 1000 个 特征词对应的时间序列按照皮尔逊相关系数进行相 似度度量,并在皮尔逊相关系数大于 0.8 的特征词对 之间建立相应的边, 以相应的特征词作为结点, 以 此来构造特征词序列之间的复杂网络图。采用 Blondel 算法进行网络社区划分, 并用模块度衡量网 络社区的结构强度,最后得到最优的社区划分结果, 如图 7 所示, 共 392 个结点, 1058 条边, 模块度为 0.775。

按照群落的大小以及群落中特征词频繁出现的 时间先后, 得到了 9 种主要的社区结构, 如图 7 所 示(椭圆标注)。基于本文对整个时间段文档集的阶 段划分结果的扩展, 增加 2005 年和 2013 年两个具 有波峰的时间节点, 把整个时间段文档集划分为七 个阶段:S1(1954—1975 年), S2( 1978—1984 年), S3 ( 1985—1991 年), S4 ( 1992—1999 年), S5 ( 2000—2005 年 ), S6 ( 2006—2013 年 ), S7 ( 2014—2017 年)。由于 tf-idf 值能够反映出特征词

在不同文档中的重要性程度,特定文档中 tf-idf 值较 高的特征词能够代表特定文档论述的关键内容点或 者热点。所以在每个时间段内, 用特征词在对应阶 段的所有年份的 tf-idf 值的平均值作为该阶段的特征 词的权重,如此每个特征词由原来的 49 维时间序列 向量转换成相应的 7 维阶段向量。对同一社区中的 所有特征词对应的 7 维阶段向量进行可视化, 可以 得到 9 种社区结构分别对应 9 种不同的特征词序列 模式, 如图 8 所示。


不同模式下对应的特征词, 都具有一定的时代 特征,在特定的时代背景下具有重要的意义。模式1对应的特征词, 如人民公社、整风运动等, 是第一 阶段中较为重要的词, 而在之后的六个阶段则很少 出现甚至消失。模式 2 对应的特征词,如工人阶级、 手工业等, 在第一阶段中较为重要, 在后续的阶段 中重要性迅速降低, 但没有消失, 仍具有一定的重 要性。模式 3 对应的特征词, 如社会主义事业、社 会主义建设等, 在第一阶段中较为重要, 并随着时 间的推移, 在后续的阶段中其重要性逐步降低。模 式 4 对应的特征词, 如和平共处、五项原则、四个

现代化等, 在第二阶段具有较强的重要性, 而在其余的阶段重要性较弱。模式 5 对应的特征词, 如全民所有制、高等院校等, 在第三阶段具有较为突出 的重要性。模式 6 对应的特征词, 如三个代表、走出去战略等, 在第五阶段具有较明显的重要性。模式 7 对应的特征词, 如全面建设小康社会、九年义务教育等, 在第六阶段具有较强的重要性。模式 8 对应的特征词,如电子商务、全面建成小康社会等, 在第六、第七阶段具有较强的重要性。模式 9 对应 的特征词, 如气候变化、结构性减税等, 只在第七阶段具有较强的重要性。

推荐阅读

【视频课】Python爬虫与文本数据分析

2019·国庆·杭州 | Python爬虫与文本分析工作坊 & 课题申报高级研修班
计算社会经济学
文本大数据分析在经济学和金融学中的应用:一个文献综述

如何用nbmerge合并多个notebook文件?   

自然语言处理库nltk、spacy安装及配置方法

datatable:比pandas更快的GB量级的库

国人开发的数据可视化神库 pyecharts

pandas_profiling:生成动态交互的数据探索报告

cufflinks: 让pandas拥有plotly的炫酷的动态可视化能力

使用Pandas、Jinja和WeasyPrint制作pdf报告

使用Pandas更好的做数据科学

使用Pandas更好的做数据科学(二)

少有人知的python数据科学库

folium:地图数据可视化库

学习编程遇到问题,该如何正确的提问?

如何用Google Colab高效的学习Python



您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存